به گزارش قدس آنلاین، شاخه DeepMind شرکت گوگل نوعی هوش مصنوعی ساخته که تصاویر و صوت در بخش هایی از ویدئو را به طور خودکار شناسایی می کند. به عبارت دیگر این هوش مصنوعی نیاز دارد یک کاربر انسانی درباره چیزهایی که می بیند و می شنود به آن توضیحی دهد.
این سیستم جالب با استفاده از الگوریتمی مخصوص مواردی مانند جمعیت، افرادی که حرکت می کند و آب را بدون هیچ برچسب یا توضیح خاصی بشناسد. حال آنکه بیشتر الگوریتم های فعلی نیازمند آن هستند که دانشمندان تصاویر را برایشان مجزا کنند و درباره آنها توضیحی دهند.
رلیا آراندیولوویک، رهبر این پروژه می گوید: الگوریتم ما می تواند تصاویر و صوت را با آنچه می بیند و می شنود، همخوان کند.
این الگوریتم پیشرفته با دسته بندی اطلاعات شبکه هایی مخصوص شناسایی تصاویر و صوت ساخته شده است.
محققان ویدئویی کوتاه برای شبکه تصاویر ویک کلیپ صوتی برای شبکه صوتی پخش کردند.
آنها همچنین از شبکه ای دیگر هم استفاده کردند که از ۶۰ میلیون کلیپ کوتاه (برگرفته از ۴۰۰ هزار ویدئو ) تهیه شده بود. سپس آن را با کلیپ های صوتی مشابه همخوان کردند. به عنوان مثال اگر تصویر مربوط به دست زدن فردی بود، صوت مرتبط با آن نیز پخش شد.
به گفته محققان این نوع یادگیری به انسان کمک می کند نوعی هوش مصنوعی بسازد که با تکیه بردیده ها و شنیده های خود از دنیای واقعی می تواند بیاموزد.
همچنین می توان از آن برای بررسی مخازن بزرگ اطلاعاتی مانند جستجو میان میلیون ها ویدئو در یوتیوب استفاده کرد.
نظر شما